Multimodel RL Next

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

多模态理解模型+RL井喷

GRPO出现之后,基于GRPO及其变种(DAPO、VAPO)井喷出一系列模型。[^1]

RL算法趋势

在强化学习(RL)的应用中,特别是在多模态大语言模型(MLLMs)的理解能力增强中,常常提到两种主要的RL训练范式:价值模型无关的方法(value-model-free methods)价值模型相关的方法(value-model-based methods)[^1]。这两种方法的主要区别在于它们是否依赖于价值函数的显式建模。

价值模型无关的方法

(value-model-free methods)这类方法不依赖于价值函数或者模型来估计未来奖励。它们直接通过策略梯度(policy gradient)来优化策略,即通过直接评估策略(policy)对应的行为(action)的概率分布,并根据奖励信号来调整这个分布。这种方法的代表算法是Group Relative Policy Optimization (GRPO)[^11]。

  • GRPO:在GRPO中,策略的更新不依赖于价值函数的估计,而是通过比较组内不同的输出响应(samples)来计算优势函数(advantage function),然后基于这个优势函数来更新策略。这种方法的优势在于实现简单,不需要额外的价值模型训练,能够稳定地进行策略优化。

下表的主体内容来自^14:

Method Year Objective Type Clip KL Penalty Key Mechanism Signal Link Resource
GRPO family
GRPO 2025 Policy gradient under group-based reward Yes Yes Group-based relative reward to eliminate value estimates Group-based reward Paper -
DAPO 2025 Surrogate of GRPO’s Yes Yes Decoupled clip + dynamic sampling Dynamic group-based reward Paper Code Model Website
GSPO 2025 Surrogate of GRPO’s Yes Yes Sequence-level clipping, rewarding, optimization Smooth group-based reward Paper -
GMPO 2025 Surrogate of GRPO’s Yes Yes Geometric mean of token-level rewards Margin-based reward Paper Code
ProRL 2025 Same as GRPO’s Yes Yes Reference policy reset Group-based reward Paper Model
Posterior-GRPO 2025 Same as GRPO’s Yes Yes Reward only successful processes Process-based reward Paper -
Dr.GRPO 2025 Unbiased GRPO objective Yes Yes Eliminate bias in optimization Group-based reward Paper Code Model
Step-GRPO 2025 Same as GRPO’s Yes Yes Rule-based reasoning rewards Step-wise reward Paper Code Model
SRPO 2025 Same as GRPO’s Yes Yes Two-staged history-resampling Reward Paper Model
GRESO 2025 Same as GRPO’s Yes Yes Pre-rollout filtering Reward Paper Code Website
StarPO 2025 Same as GRPO’s Yes Yes Reasoning-guided actions for multi-turn interactions Group-based reward Paper Code Website
GHPO 2025 Policy gradient Yes Yes Adaptive prompt refinement Reward Paper Code
Skywork R1V2 2025 GRPO with hybrid reward signal Yes Yes Selective sample buffer Multimodal reward Paper Code Model
ASPO 2025 GRPO with shaped advantage Yes Yes Clipped bias to advantage Group-based reward Paper Code Model
TreePo 2025 Same as GRPO’s Yes Yes Self-guided rollout, reduced compute burden Group-based reward Paper Code Model Website
EDGE-GRPO 2025 Same as GRPO’s Yes Yes Entropy-driven advantage + error correction Group-based reward Paper Code Model
DARS 2025 Same as GRPO’s Yes No Multi-stage rollout for hardest problems Group-based reward Paper Code Model
CHORD 2025 Weighted GRPO + SFT Yes Yes Auxiliary supervised loss Group-based reward Paper Code
PAPO 2025 Surrogate of GRPO’s Yes Yes Implicit Perception Loss Group-based reward Paper Code Model Website
Pass@k Training 2025 Same as GRPO’s Yes Yes Pass@k metric as reward Group-based reward Paper Code
CPPO 2025 Same as GRPO’s Yes Yes Completion Pruning Group-based reward Paper

CPPO 通过分析发现,并不是所有的完成对于策略训练都有相同的贡献,其贡献程度与它们的相对优势有关。因此,CPPO 提出了一种基于绝对优势的完成剪枝策略,大幅减少了梯度计算和更新所需的完成数量。

价值模型相关的方法

与价值模型无关的方法不同,价值模型相关(value-model-based methods)的方法会估计一个价值函数来预测未来的累积奖励。这种方法通常会结合价值函数和策略梯度来更新策略,能够提供更为精确的奖励估计,从而优化策略。代表性的算法包括Proximal Policy Optimization (PPO)[^7]。

  • PPO:PPO是一种结合了价值函数和策略梯度的算法。它通过优化一个代理的价值函数来估计当前策略下的状态值,并结合这个价值估计来更新策略。PPO的关键在于通过一个辅助的价值函数来稳定训练过程,并提高训练的样本效率。

下表的主体内容来自^14:

Method Year Objective Type Clip KL Penalty Key Mechanism Signal Link Resource
PPO family
PPO 2017 Policy gradient Yes No Policy ratio clipping Reward Paper -
PF-PPO 2024 Policy gradient Yes Yes Policy filtration Noisy reward Paper Code
VinePPO 2024 Policy gradient Yes Yes Unbiased value estimates Reward Paper Code
PSGPO 2024 Policy gradient Yes Yes Process supervision Process Reward Paper -
ORZ. 2025
VC-PPO. 2025
VAPO 2025 Policy gradient Yes Adaptive Adaptive KL penalty + variance control Reward + variance signal Paper -

两种方法各有优势,适用于不同的场景和任务。价值模型无关的方法通常更加简单直接,适合于那些难以建模价值函数的复杂任务。而价值模型相关的方法则在奖励信号较为稀疏或者需要更精确的奖励预测时表现出色,能够更有效地引导模型学习。在实际应用中,选择哪种方法往往取决于具体任务的特性、可用数据的质量以及计算资源的限制。

[^16]

当前应用:GRPO-family一家独大

  1. online policy mirror descent (OPMD) 基于2021的Mirror Descent Policy Optimization一文。
  2. RLOO 是2024年提出的PPO算法的变种[^15]
  3. 统计:GRPO 30;RLOO 2;OPMD 2;PPO 1;GRPO变种(GRPO-SSB、Fast-GRPO、T-GRPO、GRPO-SSR、GRPO-D、StepGRPO、GFlowNet、GRPO&PTST) 各一个

多模态理解

在强化学习增强多模态大语言模型(MLLMs)的理解能力方面,存在一些核心挑战,这些挑战指向了未来研究的三个主要方向:稀疏奖励(sparse rewards)不高效的跨模态理解(inefficient cross-modal reasoning)以及现实世界部署约束(real-world deployment constraints)[^1]。以下是对这三个方向的解释:

避免稀疏奖励

问题描述:在RL中,稀疏奖励(Sparse Rewards)指的是奖励信号不频繁或者只在任务完成时(结果奖励机制 ORM)才提供反馈,这会导致模型难以从少数的奖励信号中学习到有效的策略。在多模态理解任务中,稀疏奖励使得模型难以区分哪些行为是积极的,哪些是消极的,从而难以优化其理解策略。

未来方向:为了解决稀疏奖励的问题,未来的研究可能会集中在以下几个方面:

  • 奖励分解:将复杂任务分解为多个子任务,并为每个子任务提供密集的奖励信号,以便模型能够更容易地学习到正确的行为。
    • 过程导向奖励机制(Process Reward Mechanisms)可以被视为一种奖励分解的实现方式。过程导向奖励机制强调评估和奖励模型在推理过程中的中间行为,而不仅仅是最终结果的正确性。这种方法可以帮助模型更好地学习到解决问题的正确步骤,从而提高推理能力。例如,在多模态推理任务中,模型可能会被奖励为生成逻辑连贯的推理步骤,而不仅仅是给出正确的最终答案。
  • 奖励共享:在多任务学习中,允许不同任务之间共享奖励信号,以增加奖励的频率和多样性。
  • 分层奖励建模:开发更复杂的奖励模型,能够在不同的抽象层次上提供奖励,从而引导模型进行更深层次的学习。
    • curriculum reinforcement learning(课程强化学习)也与奖励分解相关。这种方法通过逐步增加任务难度,让模型先从简单的任务开始学习,然后逐步过渡到更复杂的任务。这样的训练策略可以看作是对奖励分解的一种实现,其中每个课程阶段都可以为模型提供更密集的反馈和奖励信号。

这点在Agent RL里体现的更明显

更高效的跨模态理解

问题描述:(Inefficient Cross-Modal Reasoning)

  • 跨模态理解涉及到整合和协调来自不同感官通道(如文本、图像、音频和视频)的信息。当前的MLLMs在处理跨模态数据时可能会效率低下,因为它们需要理解和融合来自不同模态的复杂信息。
  • 多模态超越文本的挑战:与纯文本数据相比,多模态数据的质量和数量不足,导致模型在视频内容的对齐上表现不佳。

未来方向:为了提高跨模态理解的效率,未来的研究可能会探索以下策略:

多模态融合技术

开发更有效的多模态融合机制,以便更好地整合和协调不同模态的信息。

  • 利用强化学习从人工智能反馈(RLAIF[^6])中获取多模态对齐的新方法:
  • 其中上下文感知的奖励模型(Context-Aware Reward Modeling):通过将视频细分成多个片段,并为每个片段生成详细的描述,然后将这些描述整合到奖励模型中,以提供更清晰的视频内容理解。

视觉引导理解链MM-CoT

利用视觉信息来引导和构建理解链,提高理解过程中的逻辑连贯性和效率。

  • [^1]
  • 视觉决策领域:Praxis-VLM[^18]通过文本驱动的强化学习就能实现了复杂的视觉决策能力。文本驱动的推理学习:Praxis-VLM 通过文本描述的情境学习推理能力,这表明推理和决策能力可以在没有直接多模态经验的情况下通过语言表示学习。

  • 视觉搜索(Retrieval-Augmented Generation, RAG)领域:Mini-o3[^17]通过构建 Visual Probe 数据集、采集冷启动数据和引入 over-turn masking 策略(鼓励更多轮回答) 来提升基于图像的工具使用和推理能力,能够在测试时自然扩展到数十个回合,从而在挑战性的视觉搜索任务中实现最先进的性能。阿里VRAG-RL [^20]

轻量级RL框架

设计更加轻量级的RL框架,以减少计算资源的消耗,并提高模型在处理跨模态任务时的响应速度。

  • 去掉一些基座仓,在RL为主的仓里VeRL是增长最快的(微软的Agent Lightning势头很强)

多模态生成

DPO-family

基于偏好的强化学习方法,称为 Reward Preference Optimization (RPO),用于主题驱动的文本到图像生成任务,通过引入 λ-Harmonic 奖励函数和 Bradley-Terry 偏好模型,实现了有效的模型训练和早停,提高了图像生成的质量和效率。[^9]

Improving Video Generation with Human Feedback[^21]构建一个大规模的人类偏好数据集,引入一个多维度视频奖励模型(VideoReward),并提出了三种对流基础的视频对齐算法(Flow-DPO、Flow-RWR 和 Flow-NRG),以提高视频生成的视觉质量、运动质量和文本对齐。

GRPO-family

DanceGRPO[^22] 的框架,它通过适应 Group Relative Policy Optimization (GRPO) 算法来提高视觉生成任务的性能,特别是在文本到图像、文本到视频以及图像到视频的生成任务中。相对于之前的DPO方法有提升。

MixGRPO[^23] 通过在滑动窗口内使用 SDE 采样和 GRPO 引导优化,在窗口外使用 ODE 采样,减少了优化的复杂度和训练时间。实验结果表明,与 DanceGRPO 相比,MixGRPO 在多个人类偏好对齐的维度上获得了显著的性能提升,并且在训练时间上减少了近 50%,而 MixGRPO-Flash 变体进一步减少了 71% 的训练时间。


ODE 与 SDE 的采样策略

在扩散模型中,生成图像的过程可以看作是从噪声逐步去噪得到清晰图像。这个过程可以用两种数学工具描述:

  • ODE(常微分方程):确定性过程。给定一个初始噪声,每一步去噪都是确定的、可重复的。优点是稳定、计算效率高;缺点是缺乏探索性,容易陷入局部最优。
  • SDE(随机微分方程):随机过程。每一步去噪都加入一点随机扰动,使得路径更多样。优点是能更好地探索不同生成路径,有助于优化对人类偏好的拟合;缺点是计算开销大、训练不稳定。

MixGRPO 的“混合”策略

  • 滑动窗口内(比如最后几步去噪过程),使用 SDE:因为这些步骤对最终图像质量影响最大,需要精细优化和更强的探索能力。
  • 窗口外(早期去噪步骤),使用 ODE:因为早期步骤相对粗糙,用确定性过程更快、更省资源。

这就像“抓大放小”:关键步骤精细调优(用 SDE + RL 优化),非关键步骤快速跳过(用 ODE 生成)。

滑动窗口优化调度器(Sliding Window Optimization Scheduler)

想象你有一个长度为 T 的去噪过程(比如 T=1000 步)。传统 GRPO 方法会在 所有 T 步都进行强化学习更新,计算代价极高。

滑动窗口调度器的做法是

  • 只在一个 动态移动的小窗口(比如最近的 10 步)内进行 策略梯度更新(即用人类反馈信号优化模型)。
  • 窗口之外的步骤只做 前向生成(用 ODE 快速采样),不更新参数

这样做的好处:

  • 大幅减少训练开销:只优化最关键的几步。
  • 保持生成质量:因为人类偏好主要体现在图像细节上,而细节在去噪后期才显现。

类比理解(通俗版)

想象你在画一幅油画:

  • 传统 GRPO:每画一笔(哪怕只是打底色)都要请专家评审,反复修改,非常慢。
  • MixGRPO:前期打草稿时自己快速画(ODE,不请专家),只在最后精细刻画人脸、光影时才请专家指导并反复调整(SDE + GRPO 优化)。这样又快又好。

Flow-GRPO[^19] 的方法,用于通过在线强化学习(RL)改进流匹配模型,特别是在文本到图像(T2I)生成任务中。该方法通过将确定性的常微分方程(ODE)转换为具有相同边缘分布的随机微分方程(SDE)来引入随机性,并通过减少训练过程中的去噪步骤来提高训练效率。实验结果表明,Flow-GRPO 在复合图像生成、视觉文本渲染和人类偏好对齐任务上都取得了显著改进,同时几乎没有导致奖励黑客行为。(ps: 说实话我怎么觉得就是引入噪声后择优选一个)

图形修复

使用GRPO的变种算法来实现SOTA的被天气干扰的图像修复[^10]

多智能体RL

Agent RL 可以从一般是从LLM RL调整过来[^16]

且一般专注于六大能力维度的提升,并结合环境的工具调用来实现[^16]:

不同于多模态RL以GRPO family为主,Agent-RL 算法更加百花齐放[^16]:

实例

通过RL来训练出不同差异的agent,在联合作答中取得SOTA[^3]

MAPoRL使用了多智能体 PPO(Proximal Policy Optimization)算法来更新每个代理的策略。这个算法通过最大化每个代理的价值函数来进行训练,价值函数是基于累积奖励定义的。通过这种方式,每个代理都能学习如何在与其他代理的交互中最大化其长期奖励。[^4]

商业落地

金融场景的多agent RL实践。[^5]

待学习

PPT:

  1. RL算法趋势
  2. 多模态RL新应用场景(除开传统的理解和生成)
  3. 多模态框架: VeRL挑大旗,社区原生支持,后续重点特性(支持megatron后端,)。

待读:

  1. 第7章 future
  2. 华为PPT剩余部分的论文
  3. RL系统优化(组网等)

Reinforcement Learning: An Overview[^8]

参考文献

[^1]: Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models

[^2]: ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

[^3]: ACL25: Advancing Collaborative Debates with Role Differentiation through Multi-agent Reinforcement Learning

[^4]: ACL25: MAPoRL2: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

[^5]: ACL25: FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

[^6]: ACL24: Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback

[^7]: PPO: Proximal Policy Optimization Algorithms

[^8]: Reinforcement Learning: An Overview

[^9]: NeurIPS 2024: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning

[^10]: NeurIPS 2025: Real-World Adverse Weather Image Restoration via Dual-Level Reinforcement Learning with High-Quality Cold Start

[^11]: DeepSeekMath: Pushing the limits of mathematical reasoning in open language models

[^12]: DAPO: An Open-Source LLM Reinforcement Learning System at Scale

[^15]: Back to basics: Revisiting reinforce style optimization for learning from human feedback in llms.

[^16]: The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

[^17]: Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

[^18]: NeurIPS 2025: Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

[^19]: NeurIPS 2025: Flow-GRPO: Training Flow Matching Models via Online RL

[^20]: VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

[^21]: NeurIPS 2025: Improving Video Generation with Human Feedback

[^22]: DanceGRPO: Unleashing GRPO on Visual Generation

[^23]: MIXGRPO: UNLOCKING FLOW-BASED GRPO EFFICIENCY WITH MIXED ODE-SDE

Author

Shaojie Tan

Posted on

2025-11-19

Updated on

2025-11-25

Licensed under